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天 科学 数据 开放 存 取 出 版 平台 服务 调研 及 局 示 ~ 
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摘要 : [目的 /意义 
版 平台 的 建设 
本 ,根据 科学 数据 出 版 采集 - 


] 数 据 的 价值 和 科学 数据 开放 存 取出 版 的 重要 性 已 成 为 共识 
经 验 具 有 借鉴 意义 。[ 方 法 /过 程 ] 选 取 欧 美 地 区 14 个 典型 的 科学 数据 开放 存 取 出 版 平台 为 样 
分 发 -重用 ”的 生命 周期 ,从 科学 数据 出 版 政策 或 愿景 ,科学 数据 整合 


,欧美 科学 数据 开放 存 取出 


* 标 六 与 六 


ep 科学 数据 引用 ,数据 生命 周期 管理 与 出 版 质量 控制 5 个 方面 展开 调研 ,归纳 其 服务 建 


设 特点 与 经 验 。[ 结果 


结论 ] 提炼 得 出 对 我 国 科学 数据 开放 存 取出 版 平台 服务 建设 的 有 益 启 示 : 制 定 履 盖 科 学 


数据 出 版 全 生命 周期 的 政策 ,重视 科学 数据 出 版 服务 建设 的 数据 整合 数据 标识 数据 引用 、 数 据 评 审 等 关键 性 


问题 。 

5 关键 词 : 科学 数据 “开放 存 取 
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数据 出 版 ”数据 标识 


数据 引用 


< 十 
科学 数据 是 支撑 科技 创新 经 济 发 展 和 国家 安全 


的 前 提 条 件 , 具 有 较 高 的 可 重用 价值 ,科学 数据 开放 与 
埋 颁 受到 各 国际 组 织 和 国家 的 高 度 重 视 。 欧 盟 地 平 线 
2020 计划 (Horizon 2020 programme ) 提出 在 欧洲 的 公 
共 奖 助 研 究 ,要 确保 科学 出 版 物 的 开放 获取 并 且 促 进 
科 侈 数据 的 开放 获取 ,该 计划 资助 的 FOSTER Plus 项 
目 生 在 促进 地 平 线 2020 及 往 后 开放 科学 的 实际 实施 ， 
指 址 "开放 获取 、 开放 数据 是 开放 科学 运动 的 两 支 主 
要 态 量 '"。2004 年 OECD 发 布 的 《开放 获取 公共 资助 
研究 数据 的 宣言 "及 2016 年 欧盟 研究 与 创新 指导 委 
员 会 出 台 的 《0A 2020 计划 行动 纲要 》” 等 丝 将 开放 科 
学 延伸 至 开放 科学 数据 出 版 领域 。 我 国政 府 也 非常 重 
视 科 学 数据 的 共享 与 出 版 ,2018 年 3 月 国务 院 办 公 厅 
印发 实施 的 《科学 数据 管理 办 法 ) 第 二 十 二 条 指出 : 
“主管 部 门 和 法 人 单位 应 积极 推动 科学 数据 出 版 和 传 
播 工 作 ,支持 科研 人 员 整 理发 表 产权 明晰 、 准 确 完整 、 
享 价值 高 的 科学 数据 ”确立 科学 数据 共享 的 公开 
版 模式 ,支持 和 推动 科学 数据 惠及 更 广泛 的 科学 研 
究 领 域 是 未 来 我 国 出 版 工作 的 重 难点 。 


- 匡 


总 体 来 说 ,前 人 对 科学 数据 出 版 的 研究 主要 围绕 
以 下 4 个 方面 展开 :@ 科 学 数据 出 版 的 动因 。 如 D. S. 
Sayogo 等 中 通过 DataONE 项 目 工作 组 进行 的 调查 结果 
分 析 , 指 出 数据 共享 与 出 版 的 动机 主要 包括 数据 管理 
技能 和 组 织 支 持 、 通 过 法 律 政策 等 形成 的 对 数据 集 创 
建 者 的 认可 机 制 两 个 关键 因素 。@@ 科 学 数据 出 版 模 
式 。 科 学 数据 出 版 模式 有 两 种 .三 种 .四 种 和 五 种 等 不 
同 划 分 方法 ,其 中 比较 具有 代表 性 的 有 : 黄 国彬 "等 归 
纳 的 科学 数据 集成 出 版 ,独立 出 版 模式 ; 涂 志 芳 ”总 结 
的 包括 独立 的 数据 出 版 .作为 论文 附件 的 数据 出 版 和 
数据 论文 出 版 3 种 科学 数据 出 版 模式 。@ 科 学 数据 出 
版 的 关键 性 问题 。 学 界 比 较 重 视 从 科学 数据 出 版 的 单 
个 环节 或 流程 进行 研究 , 亦 有 学 者 从 数据 生命 周期 理 
论 考察 分 析 , 如 涂 志 芳 中 认为 数据 标识 .数据 引用 、 数 
据 评 审 为 数据 出 版 区 别 于 一 般 数据 共享 的 关键 问题 
站 和 出 上 全 。 基 中 大 多 类 学者 主要 允 和 学 
据 出 版 平台 的 功能 做 出 详细 介绍 ,如 D. Roman 等 
绍 了 DataGraft 提供 的 数据 转换 发布 和 托管 功能 ; 王 
丹 丹 结合 对 新 加 坡 南洋 理工 大 学 科研 人 员 的 情景 化 
访谈 和 Dataverse 平台 的 使 用 测试 分 析 , 总结 了 科学 数 
据 出 版 平台 的 基本 功能 要 求 和 用 户 体验 要 求 ; 马 建 


咱 
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玲 "" 根 据 数据 生命 周期 模型 梳理 了 研究 数据 管理 工 


志 芳 等 … 亦 梳理 了 部 分 科学 数据 开放 存 取出 版 平台 
及 其 功能 。 毋 庸 置疑 ,上 述 学 者 已 从 不 同 视角 和 维度 
对 科学 数据 出 版 的 认 知 性 问题 进行 了 阐述 ,可惜 的 是 ， 
鲜 有 针对 科学 数据 开放 存 取出 版 平台 服务 建设 的 齐 析 


主题 文献 和 网 络 调研 ,依据 平台 的 代表 性 、 新 颖 性 和 资 
料 的 详尽 程度 ,重点 对 比 校正 、 选 取 了 14 个 知名 的 出 
版 平台 作为 调查 对 象 ,其 组 织 者 区 域 为 欧美 各 占 7 个 
( 见 表 1) ,分 别 是 :量化 社会 科学 研究 所 (The Institute 
for Quantitative Social Science , IQSS ) 与 哈佛 大 学 图 书 
馆 .哈佛 大 学 信息 技术 组 织 开发 的 Dataverse, 麻 省 理工 


和 研究 ,也 没有 进行 过 整体 性 探讨 。 基 于 此 ,笔者 通过 
对 欧美 典型 的 科学 数据 开放 存 取出 版 平台 (以 下 简称 
“出 版 平台 ”) 服务 调查 和 对 比分 析 , 试 图 明晰 其 整体 
服务 现状 和 特点 ,探讨 对 于 我 国 出 版 平台 服务 建设 的 
启示 。 


2 调查 对 象 和 方法 


2A- 调查 对 象 
之 由 于 科学 数据 开放 存 取出 版 是 较 新 的 服务 ,国际 
发 著 展 此 服务 的 出 版 平台 数量 也 较 少 。 因 此 ,为 保证 
请 寒 对 象 具有 代表 性 ,笔者 设 定 了 两 个 样本 选取 标准 : 
G 需 满足 科学 数据 开放 存 取 ( Open Aceess,0A) 具 备 的 
开 底 性 特征 。 出 版 平台 应 皆 具 有 开源 .开放 的 基本 特 
点 正体 表现 为 大 多 遵循 开放 存 取 的 知识 共享 署名 4.0 
9 许可 协议 (Creative Commons Attribution 4. 0 Inter- 
n 纯 nal,CC BY 4.0) 和 Cithub 开源 支持 ,与 本 文 调查 
描 训 高 度 相关 。 加 组 织 者 区 域 需 具 有 代表 性 。 欧 美 地 
区 车 学 数据 开放 存 取出 版 实践 经 验 颇 丰 , 长 期 处 于 领 
全 甬 位 , 故 选 取 组 织 者 区 域 为 欧美 地 区 的 出 版 平台 。 

它 综合 以 上 标准 ,并 通过 参阅 大 量 的 科学 数据 出 版 


学 院 图 书馆 和 美国 惠普 公司 实验 室 ( Hewlett -Packard 
Labs) 联 合 开发 的 Dspace ,美国 国家 科学 基金 会 ( Na- 
tional Science Foundation, NSF ) 资助 DataNet 计划 研发 
的 DataONE , 同 是 NSF 资助 的 DataNet 计划 发 起 建立 的 
Data Conservancy , 康 奈 尔 大 学 Albert R，Mann 图 书馆 
运营 的 数据 阶段 型 存储 库 DataStaR ,由 NSF 资助 va- 
grant-dryad 提供 技术 支持 的 Dryad ,斯 坦 福 大 学 和 Du- 
raSpace 合作 开发 的 Samvera(2017 年 5 月 前 被 称 为 Hy- 
dra 项 目 ) , 非 营 利 组 织 开 放 知 识 基 金 会 (Open Knowl- 
edge Foundation ,OKF ) 构建 的 CKAN ,CERN 数据 中 心 
提供 技术 支持 的 CERN Open Data, EW -Shopp 、proData- 
Market 和 euBusinessGraph 项 目 运 营 的 DataGraft, 由 
Mark Hahnel 推出 .Digital Science 支持 的 Figshare ,阿尔 
弗 雷 德 韦 格 纳 研 究 所 、 北 姆 霍 兹 极地 与 海洋 研究 中 心 
(The Alfred Wegener Institute, AWI) 和 不 来 梅 大 学 海洋 
环境 科学 中 心 ( Marine Umweltwissenschaften, MARUM ) 
主办 的 PANGAEA ,Elsevier 开发 的 开放 数据 解决 方案 
Pure ,由 CERN 数据 中 心 和 OpenAIRE 提供 支持 的 Ze- 


nodo。 


一 表 1 欧美 科学 数据 开放 存 取出 版 平台 基本 情况 


【3 出 版 平台 区 域 开发 语言 源 支持 出 版 平台 区 域 发 语言 开源 支持 

Dataverse 美国 HTML/ Java Github CKAN 欧洲 HTML/Python/ JavaScript Github 
Dspace 美国 HTML/ Java Github CERN Open Data 欧洲 HTML/Python/ JavaScript Github 
DataONE 美国 HTML/ Java/ Python Github DataGraft 欧洲 HTML/ Java/ Python Github 
Data Conservancy 美国 HTML/ Java/ Python Github Figshare 欧洲 HTML/PHP Github 
DataStaR 美国 HTML/ Java Github PANGAEA 欧洲 HTML/R language Github 

Dryad 美国 HTML/ Java/ Python Github Pure 欧洲 HTML/Python 六 六 
Samvera 美国 HTML/ Java Github Zenodo 欧洲 HTML/Python/ JavaScript GitHub 


注 :出 版 平台 名 称 依 组 织 者 区 域 及 英文 字 序 排列 ,“* * "符号 表示 数据 不 详 或 无 相关 数据 ,下 文 相同 


2.2 调查 方法 

根据 科学 数据 出 版 采集 -分 发 -重用 ”的 生命 
周期 ,拟定 科学 数据 开放 存 取 平台 服务 的 调查 指标 共 
5 个 ,分 别 是 :中 科学 数据 出 版 政策 或 愿景 ,解析 出 版 


据 出 版 与 分 发 路 径 、 模 式 ;科学 数据 引用 ,梳理 出 版 
平台 数据 引用 工具 与 方法 ;@ 数 据 生命 周期 管理 与 出 
版 质量 控制 ,探究 出 版 平台 中 科学 数据 出 版 的 生命 周 
期 完整 性 及 出 版 质量 控制 。 主 要 采用 网 络 调查 法 ,以 


平台 科学 数据 开放 存 取 相关 政策 ;@ 科 学 数据 整合 、 标 
识 与 交互 ,了 解 出 版 平台 数据 整合 ,标识 与 交互 的 工具 
与 方法 ;8 科学 数据 出 版 与 分 发 ,探索 出 版 平台 科学 数 


深入 使 用 平台 的 相关 功能 为 前 提 , 辅 以 文献 调研 逐一 
对 各 项 指标 内 容 进行 归纳 总 结 。 本 研究 的 调查 统计 时 
间 为 2018 年 10 月 16 日 至 2018 年 12 月 2 日 。 
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3 调查 结果 分 析 


3.1 科学 数据 出 版 政策 或 愿景 
科学 数据 的 开放 存 取 是 大 势 所 趋 ,英国 工程 和 自 


而 覆盖 科学 数据 开放 存 取 出 版 全 生命 周期 的 政策 制定 
是 其 发 展 的 先导 。 从 调研 情况 来 看 ( 见 表 2), 所 有 的 
出 版 平台 缘 有 推动 科学 数据 共享 出 版 和 可 重用 的 愿 


然 科 学 研究 委员 会 (Engineering and Physical Sciences 
Research Council, EPSRC) 指 出 :“ 不 受 限制 地 访问 科学 
数据 对 于 加 速 研 究 进 展 至 关 重 要 ,科学 和 学 术 数 据 的 
数量 每 年 呈 指 数 级 增长 ,但 仍然 缺乏 利用 这 一 重要 资 
源 的 基础 设施 ,政策 与 技术 保障 。” ”建立 科学 数据 开 
放 存 取出 版 平台 是 国内 外 推动 数据 开放 的 重要 实践 ， 


| 


景 ,具有 规范 性 政策 的 出 版 平台 占 比 约 为 35. 7% 。 
Dataverse .Dryad .CERN Open Data .PANGAEA 等 平台 制 
定 了 详尽 的 科学 数据 出 版 的 相关 规范 .准则 和 条 款 , 如 
Dryad 推介 了 科学 数据 出 版 政策 ,包括 Dryad 数据 出 版 
内 容 标 准 禁止 发 布 数据 的 说 明 .撤回 和 删除 数据 的 说 
明 ,提交 者 与 使 用 者 的 权利 和 义务 .隐私 政策 等 ” 。 


表 2 开放 存 取 出 版 重要 政策 或 愿景 调查 


出 版 平台 类 型 放 存 取出 版 重要 款 目 
Dataverse 政策 Dataverse 社区 规范 ,Harvard Dataverse 一 般 使 用 条 款 数据 保存 政策 .数据 隐私 政策 ,Dataverse API 使 用 条 款 、 示 例 数据 
使 用 协议 和 复制 数据 集 准 则 等 。 
Dspace 愿景 提供 使 信息 数据 公开 可 用 (可 重用 ) 和 易于 数据 管理 的 手段 15]。 
DataONE 愿景 开放 持久 ,稳健 和 安全 地 访问 描述 良好 且 易 于 发 现 的 地 球 观测 数据 161。 
Conservancy 愿景 数据 保存 ,分 享 与 发 现 :收集 并 处 理 研究 数据 ,揭示 数据 在 许多 学 科 中 的 潜力 ,促进 重用 和 进行 新 的 数据 组 合 1'7]。 
Ee DataStaR 愿景 支持 研究 协作 和 数据 共享 ,助力 数据 出 版 与 高 质量 元 数据 存档 中 $1。 
Dryad 政策 制定 了 科学 数据 出 版 政策 ,包括 Dryad 数据 出 版 内 容 标准 、 隐 私 政策 的 等 (131。 
Samvera 愿景 实现 一 体 多 用 ( One Body,Many Heads ) 及 数据 浏览 查询 . 互 操 作 , 数 据 提交 与 重用 [91。 
下 CKAN 愿景 实现 数据 访问 ,提供 简化 发 布 .共享 .查找 和 使 用 数据 的 工具 [20]。 
N Open Data 政策 遵循 CERN 开放 数据 使 用 条 款 和 隐私 政策 21 。 


CN Figshare 愿景 


CNI PANCAEA 政策 


Pure 愿景 实现 验证 和 认证 数据 .捕获 和 重 


© DataGraft 愿景 于 数据 转换 ,数据 发 布 .数据 托管 与 数据 访问 [21。 
景 句 世 界 开放 科学 数据 ,流程 涉及 数据 的 上 传 .管理 .共享 .发 布 。 
遵循 欧洲 委员 会 《地 平 线 2020 计划 科学 出 版 物 和 研究 数据 开放 获取 指南 》.DFG《 关 于 保护 良好 科学 实践 的 建议 》、 


OECD《 公 共 资 金 资 助 的 研究 数据 获取 原则 与 指南 》FAIR《 科 学 数据 管理 指导 性 原则 》 等 [23]。 
数据 ,监控 研究 资助 生命 周期 等 。 


Zenodo 政策 


同 CERN Open Data ,遵循 CERN 


放 数 据 使 用 条 款 和 隐私 政策 [211 。 


3, 纪 科学 数据 整合 标识 与 交互 

3 | 科学 数据 整合 通过 Semantic Web .Xml 等 进 
行 秽 据 封 装 整合 .语义 关联 是 目前 应 用 较 多 的 方式 。 
据 调查 ,所 有 平台 皆 使 用 Xml 进行 数据 封装 整合 ,比较 
具有 个 性 化 的 有 DataONE 使 用 EML 标准 (Ecological 
Metadata Language,EML ) 编辑 .整合 元 数据 ,DataStaR 以 
Semantic Web 进行 科学 数据 语义 关联 ,Data Conservancy 
以 RMap( 关 联 数据 图 ) .GUI 方式 进行 数据 关联 和 数据 
集 封装 ,DataGraft 明确 使 用 RDF 资源 描述 框架 进行 数据 
描述 ,PANGAEA 和 Zenodo 则 以 OAI-PMH 接口 实现 数据 
收割 采集 与 整合 ,拓宽 科学 数据 共享 与 出 版 范围 。 可 
见 ,语义 关联 化 是 科学 数据 整合 的 一 大 趋势 。 见 表 3。 
3.2.2 科学 数据 标识 ”数据 标识 是 数据 出 版 .分 发 和 
引用 的 前 提 , 同 时 亦 作 为 数据 封装 整合 .数据 交互 的 枢 
纽 。 海 量 数据 使 得 科学 数据 的 定位 与 标识 难度 加 大 ， 
故 需 对 科学 数据 进行 整合 与 标识 。 数 字 对 象 标识 符 
( Digital Object Identifier,DOI) 具有 唯一 日 永久 标识 . 永 


入 定位 等 特点 ,适合 且 利 于 数据 开放 存 取出 版 ,赋予 科 
学 数据 DOI 号 将 伴随 数据 的 整个 出 版 过 程 ” 。 由 表 3 
可 知 ,14 个 出 版 平台 中 有 10 个 使 用 DataCite 、EZID、 
CrossRef 等 工具 进行 DOI 注册 ,12 个 平台 与 ORCID 
Inc. 合作 赋予 数据 作者 唯一 标识 中 , 即 开 放 人 研究员 和 
贡献 者 ID。DOI 和 ORCID 利于 解决 数字 版 权 管理 和 
知识 产权 问题 ,减少 了 数据 交互 纠纷 。 

3.2.3 ”科学 数据 交互 ”从 表 3 可 以 看 出 ,有 11 个 出 
版 平台 以 APFI 方式 进行 科学 数据 交互 ,其 中 通过 独 具 
REST 风格 (REpresentational State Transfer ,表现 层 状态 
转移 ) 的 API 进行 数据 描述 、 数 据 交互 是 主要 做 法 ， 
RESTful API 具有 统一 接口 URI, 能够 基于 HITP 协议 
实现 多 种 格式 的 数据 调用 , 极 大 地 扩展 了 科学 数据 开 
放 存 取出 版 的 覆盖 面 。 此 外 ,DataStaR 等 出 版 平台 基 
于 自主 研发 框架 ,创新 了 数据 交互 方式 。 但 是 ,通过 
API 方式 进行 科学 数据 标识 .关联 与 交互 是 一 个 统 
规范 的 路 径 。 
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表 3 科学 数据 整合 标识 与 交互 方式 调查 


出 版 平台 数据 整合 方式 作者 标识 工具 数据 标识 工具 数据 交互 方式 
Dataverse Xml ORCID DataCite/ EZID API 
Dspace Xml ORCID CNRI RESTful API 
DataONE Xml/EML ORCID DataCite/ Morpho API 
Data Conservancy Xml/ RMap/ GUI 米 六 API-XI 
DataStaR Xml/Semantic Web ORCID ba Linked Data 
Dryad Xm ORCID DataCite RESTful API 
Samvera Xm ORCID 机 当 API 
CKAN Xm ORCID EZID API 
CERN Open Data Xm ORCID DataCite RESTful API 
DataGraft Xml/RDF 六 :第 API 
Figshare Xm ORCID DataCite/ EZID API 
PANGAEA Xml/OAI-PMH ORCID PANGAEA DOI URL 
Pure Xm ORCID CrossRef 米 六 
和 Zenodo Xml/OAI-PMH ORCID DataCite RESTful API 
3 综 上 所 述 , 科 学 数据 整合 标识 与 交互 是 数据 生命 生 4102 900 次 下 载 (Downloads ) 号] ,Dataverse 、.Dspace 


周期 视角 下 科学 数据 出 版 相互 联系 较为 紧密 的 环节 ， 
大 训 现 科学 数据 有 序 出 版 的 核心 业务 工作 流程 。 由 调 
研 欧 析 可 以 看 出 ,欧美 出 版 平台 中 科学 数据 整合 .标识 
与 交互 技术 工具 的 开发 应 用 独 具 个 性 化 特征 ,但 从 某 
> 3 芋头 全 怀 二 
世 狂 助 出 版 工具 多 元 化 ,很 大 程度 上 加 大 了 科学 数据 
政和 j 标识 与 交互 工作 的 难度 。 

3. 和 > 科学 数据 出 版 与 分 发 

\ 一 欧美 出 版 平台 的 科学 数据 出 版 与 分 发 成 绩 斐然， 
共 收 录 了 52 449 个 数据 集 (Datasets ) 、 产 


如 Jataverse 共 


等 开源 框架 被 我 国 的 北京 大 学 武汉 大 学 等 引入 或 合 
作 开 发 了 科学 数据 管理 与 出 版 平台 可 为 佐证 。 据 调研 
( 见 表 4) ,大 多 数 的 出 版 平台 皆 支 持 zip ,xlsx .csv 等 格 
式 , 文 持 的 科学 数据 出 版 格式 具有 多 样 化 特征 。 其 中 
以 Dryad 做 得 最 为 细致 ,其 规定 了 首选 格式 和 格式 支 
持 级 别 , 包 括 文 本 、 图 像 . 音 频 、 视 频 、 压 缩 文档 等 类 型 
数据 的 首选 格式 ,并 对 这 些 数据 类 型 划分 了 格式 支持 
级 别 , 即 全 力 支 持 . 有 限 支 持 和 原始 比特 流 访问 3 个 级 


[13] 
o 


别 


万 表 4 ”科学 数据 出 版 格式 与 共享 协议 调查 


出 版 平台 主要 数据 格式 共享 协议 出 版 平台 主要 数据 格式 共享 协议 
~ Dataverse xlsx/ csv/tsv CC BY 4.0/CCO CKAN csv/pdf/ doc/xlsx AGPL 
Dspace pdf/ doc/ jpeg/ tiff CC BY 4.0/BSD CERN Open Data zip/root/ gz/ pdf CCO/XROOT 
DataONE EML v2. 1.0/pdf 六 六 DataGraft csv/rdf/xml/turtle 六 六 
Data Conservancy 汪 党 六 六 Figshare text/ tgz/ data CC BY 4.0 
DataStaR csv/rdf CC BY 4.0 PANGAEA zip/ txt/ tab/ jpeg CC BY 3.0 
Dryad xlsx/ csv/ txt/ tex CCO/CC BY 3.0 Pure zip/txt/xlsx GDPR 
Samvera 六 六 CC BY 4.0/Apache 2.0 Zenodo zip/nex/ xlsx/odg CCO 


知识 共享 与 知识 产权 保护 是 科学 数据 出 版 与 内 容 
分 发 面临 的 主要 矛盾 ,而 建立 具有 约束 力 的 共享 协议 


是 解决 这 一 矛盾 的 主要 途径 。 欧 美 出 版 平台 的 科学 数 
据 出 版 大 多 遵循 约定 共享 协议 分 发 。 由 表 4 可 见 , 有 


11 个 出 版 平台 明确 遵循 CC BY 4.0 .CC0O 等 共享 协议 ， 

重视 科学 数据 出 版 与 分 发 过 程 中 的 知识 产权 保护 。 不 
同 共享 协议 各 有 千秋 ,遵循 创作 许可 (CC ) 等 知识 共享 
协议 提供 的 嘎 免 与 规范 ,能 够 保护 使 用 或 重新 分 发 数 
据 作 者 作品 的 科研 人 员 免 受 版 权 侵 权 的 关注 ,同时 保 
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护 数据 拥有 者 的 权利 
使 权 责 明晰 。 
3.4 科学 数据 引用 
数据 引用 是 数据 出 版 的 关键 环节 ,是 保障 数据 作 
者 与 管理 者 数据 权益 的 一 种 有 效 方 式 ”。Dataverse 等 
6 个 出 版 平台 认可 数据 引用 原则 联合 声明 (FORCE11) 
及 “可 发 现 (Findable) 可 访问 (Accessible) 、 可 互 操 作 
( Interoperable) 和 可 重用 (Reusable )” 的 FAIR 数据 共 
享 原则 ,大 多 数 的 出 版 平台 数据 引用 则 使 用 DOI 和 


,权衡 版 权 保 护 与 共享 利用 
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数据 指纹 技术 (Universal Numeric Finger- 
prints ,UNF ) ,并 遵循 国际 科技 数据 委员 会 
(CODATA ) 、Datacite 等 的 引用 原则 ,通过 
Datacite Crossref 等 赋予 科学 数据 DOI, 生 成 
引文 格式 化 程序 (DOI Citation Formatter) ,能 
够 支持 不 同 的 引用 语言 和 引用 风格 ”。 目 
前 文 持 基于 DOI 的 科学 数据 引用 工具 主要 
为 Datacite、Mendeley 、EZID 、Zotero 等 ,这 些 
工具 具有 良好 的 支持 性 ,譬如 Zotero 适用 于 
不 同 的 数据 格式 ,其 插件 支持 Firefox Chrome 
和 Safari 等 端口 ,同时 适用 于 Word LibreOf- 
fice .BibTeX 和 LaTeX 等 文字 处 理 软件 2 。 
出 版 平台 常用 的 科学 数据 引用 工具 如 图 1 所 示 : 


| 
EZID 
4 3 


Zotero RIS 
2 2 


Evaluate 


EndNote BibTeX 
2 2 


Datacite Mendelev 
6 


图 1 科学 数据 引用 工具 
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33< 数据 生命 周期 管理 与 出 版 质量 控制 

(5 数据 生命 周期 管理 是 数据 出 版 质量 控制 的 必要 条 
件 备 完整 的 数据 出 版 生命 周期 管理 的 出 版 平台 ,其 
re ere er ie DataONE 
将 数据 生命 周期 分 为 计划 收集 、 确 保 、 描 述 、 保 留 、 发 
现 、 集 成 .分 析 8 个 组 件 ” ,笔者 在 调研 梳理 14 个 出 版 
平台 的 数据 生命 周期 管理 情况 后 ,参照 DataONE 数据 
生命 周期 模型 和 A. Sarretta 提出 的 《研究 数据 生命 周 
期 》( Research Data Life Cycle) 5 ,将 科学 数据 出 版 的 
生命 周期 划分 为 采集 (Collect) 标识 (Identify) .出 版 
(Publish) .分 发 (Distribute) .重用 (Reuse) .评价 (Eval- 
uate)6 个 阶段 ,建立 的 科学 数据 出 版 生命 周期 模型 
(Data Publishing Life Cycle,DPLC ) 见 图 2。 目 前 完整 涉 
及 科学 数据 出 版 生命 周期 的 出 版 平台 仍 不 多 ,尤其 是 
在 评价 环节 ,出 版 质量 控制 方面 仍 吸 待 优化 ,评审 与 共 
享 之 间 的 平衡 问题 仍 在 进一步 研究 和 实践 之 中 。 引 入 
数据 质量 控制 计划 和 同行 评审 制度 将 有 利于 数据 出 版 
质量 控制 ,如 Dryad 承诺 其 工作 人 员 与 同行 评议 人 员 
会 在 数据 发 布 之 前 对 数据 的 安全 性 .学术 性 技术 正确 


Achive in 
Identify 下 生得 
osei 


Data Publishing 
Life Cycle 


图 2 ”科学 数据 出 版 生命 周期 模型 


性 等 进行 审查 和 管理 ,DataONE 亦 从 多 个 方面 对 数据 
出 版 进行 质量 审查 ,可 资 借鉴 ” 。 


4 对 我 国 科 学 数据 开放 存 取出 版 平台 


服务 建设 的 启示 

我 国 的 科学 数据 开放 存 取出 版 平台 建设 起 步 较 
晚 , 相 关 服 务 亦 相对 落后 ,但 已 受到 国家 、 科 研 教育 机 
构 等 主体 的 高 度 重视 ,并 在 数据 综合 集成 加 工 与 发 布 、 
数据 资源 发 现 与 检索 、 数 据 下 载 (重用 ) 与 共享 等 方面 
展开 了 有 益 探 索 , 总 体 发 展 空间 很 大 。 截 至 目前 ,科技 
部 、 财 政 部 先后 在 基础 科学 、 农 业 、 林 业 等 8 个 领域 建 
成 了 国家 科技 资源 共享 服务 平台 ; 中国 科学 院 牵头 建 
成 国家 基础 科学 数据 共享 服务 平台 ,涵盖 “一 主 一 备 + 
12 分 中 心 ”分 布 式 \ 可 扩展 存储 系统 ;北京 大 学 、 武 汉 
大 学 等 则 建设 了 高 校 系统 的 科学 数据 共享 平台 。 但 
是 ,总 体 而 言 我 国 科学 数据 开放 存 取出 版 实践 较为 贫 
弱 ,表现 为 出 版 平台 较 少 .相关 工具 匮乏 以 及 标准 规 
范 技术 条 件 , 人 才 队 伍 等 不 完善 问题 。 

进一步 改善 我 国 出 版 平台 的 科学 数据 开放 存 取出 
版 服务 建设 需要 吸收 欧美 出 版 平台 积累 的 经 验 :中 欧 
美 出 版 平台 的 优势 。 政 策 体系 完善 .服务 意识 较 高 . 服 
务 内 容 多 样 .服务 共享 程度 高 .标准 体系 健全 、 技 术 条 
件 更 为 成 熟 等 为 可 鉴 之 处 。 男 值得 指出 的 是 ,欧美 出 
版 平台 尤为 重视 数据 生命 周期 视角 下 的 科学 数据 出 版 
相关 工具 的 开发 和 应 用 , 较 好 地 提升 了 科学 数据 开放 
存 取出 版 质量 和 效率 。@) 欧 美 出 版 平台 的 不 足 。 存 在 
个 性 化 与 标准 化 建设 的 偏离 ,个 性 多 元 的 技术 标准 一 
定 程度 上 限制 了 科学 数据 开放 存 取 出 版 ,数据 整合 , 炎 
据 标识 ,数据 引用 和 数据 评审 等 关键 问题 的 处 理 皆 疝 
于 各 行 其 是 的 流程 , 较 难 实现 异 构 整 合 。 因 此 ,数据 出 
版 标准 、 规 范 及 其 技术 实现 将 成 为 未 来 研究 与 实践 的 
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一 大 重点 "”。 有 鉴于 此 ,我 国 的 出 版 平台 服务 建设 应 
采取 积极 的 优化 策略 。 

4.1 制定 覆盖 科学 数据 出 版 全 生命 周期 的 政策 
4.1.1 标准 化 与 规范 化 政策 ”实现 开 放 获 取 、 开 放 数 
据 和 开放 科学 ,要 进行 科学 数据 开放 共享 各 个 环节 的 
政策 研究 ”。 科 学 数据 出 版 服务 面临 着 复杂 的 知识 
产权 问题 ,是 一 项 繁杂 的 业务 工作 ,为 保证 这 项 工作 后 
顾 无 忧 ,制定 和 实施 标准 化 与 规范 化 政策 显得 尤为 迫 
切 。《 科 学 数据 管理 办 法 》 的 印发 施行 ,为 科学 数据 共 
享 与 出 版 提供 了 指引 ,但 其 整体 仍 处 于 一 个 尚 在 探索 
的 领域 ” 。 出 版 平台 的 服务 建设 要 在 探索 科学 数据 


4.2 重视 科学 数据 出 版 服务 建设 的 关键 性 问题 

4.2.1 数据 整合 :促使 数据 序 化 组 织 ” 科 学 数据 的 序 
化 整合 是 开放 存 取 出 版 的 前 提 条 件 。 目 前 ,数据 整合 
面临 的 主要 挑战 有 系统 异 构 、 科 学 数据 描述 语法 不 统 
一 \ 科 学 数据 元 数据 格式 不 统一 、 科 学 数据 之 间 缺 乏 语 
义 关联 等 ”。 可 借鉴 Data Conservaney 构建 的 4 个 关 
键 组件 ,分 别 是 DC 包装 规范 (DC Packaging Specifica- 
tion) ` 包 摄取 服务 (Package Ingest Service ) .关联 数据 
图 (RMap) 和 API 扩展 体系 结构 (APIX) ” ,形成 数据 
整合 到 数据 出 版 的 标准 化 规范化 流程 。 通 过 一 站 式 
数据 整合 ,便于 数据 作者 序 化 组 织 科学 数据 ,促进 数据 


集成 出 版 .独立 出 版 两 种 开放 存 取 模 式 多 样 互补 的 同 
时 ,注重 标准 化 与 规范 化 建设 。 在 科学 数据 出 版 环节 ， 
本 手 宏观 层面 加 强 对 数据 整合 数据 出 版 服务 平台 交 
流 碟 享 等 内 容 的 构建 ,制定 涉及 科学 数据 出 版 全 生命 
周期 的 标准 化 与 规范 化 政策 ,建立 专门 的 实施 小 组 或 
委 莫 会 ,对 出 版 平台 数据 出 版 工作 进行 指导 与 监管 。 
相 美 出 版 平台 亦 需 在 以 上 基础 上 制定 实施 细则 (如 


Dyyad 数据 出 版 内 容 标准 ) ,实施 细则 应 包含 科学 数据 


9 


时 中 的 服务 理念 、 技 


细 观 欧美 出 版 平 
F 源 与 自主 研发 的 强大 优势 ,其 中 
( 企 平 台 支 持 以 GitHub 托管 和 审查 代码 .管理 项 目 和 
构建 软件 ”。 在 开源 环境 下 ,开放 存 取 政 策 驱 动 与 标 
准 亿 约束 为 解决 我 国 科学 数据 出 版 基础 贫 弱 之 道 。 首 
先 ,制定 开放 存 取 政 策 ,鼓励 开源 与 自主 研发 应 为 重要 
着 手 点 。 科 学 数据 的 开放 存 取 模 式 是 :数据 作者 创作 
科学 数据 一 存储 于 科学 数据 开放 存 取出 版 平台 (数据 


重用 与 科学 研究 的 推陈出新 。 

4.2.2 数据 标识 :赋予 唯一 永久 标识 ”国内 的 科学 数 
据 出 版 主要 为 简易 数据 发 布 与 共享 ,与 具有 “来 源 可 
靠 、 质 量 可 信和 ,公开 发 布 . 公 共 利 用 、 唯 一 标识 、 知 识 产 
权 清 晰 、 可 正式 引用 ”等 特征 的 开放 存 取 出 版 仍 有 一 
定 的 差距 。 就 数据 标识 层面 而 言 ,需要 进行 赋予 促进 
数据 交互 的 唯一 永久 标识 符 ,推动 科学 数据 开放 存 取 
出 版 。 具 体 需 以 数据 标识 与 作者 标识 并 重 为 策略 ,DOI 
与 ORCID 缘 具 有 唯一 永久 标识 性 ,能 确保 科学 数据 与 
数据 作者 永久 关联 ,是 国外 出 版 平台 的 实践 热点 ,在 我 
到 科技 论文 标识 领域 亦 有 深层 次 应 用 。 不 同 的 是 ,对 
象 标 识 符 ( Object Identifier, OID ) 为 我 国 各 科学 系统 规 
范 采 用 的 科学 数据 唯一 永久 标识 符 ,由 科学 数据 主管 
部 门 向 国家 OID 注册 中 心 申请 获得 ” 。 因 此 ,要 深化 
0ID .DOI 与 ORCID 等 标识 工具 的 应 用 ,为 标准 化 科学 
数据 引用 做 铺垫 。 
4.2.3 数据 引用 :保障 知识 产权 清晰 14 个 出 版 平 
台 的 开放 存 取 服务 实践 表明 ,数据 引用 能 够 保障 知识 
产权 清晰 ,确保 科学 数据 合理 使 用 。 因 此 ,要 加 强 科学 
数据 引用 标准 的 制定 和 科学 数据 引用 工具 的 开发 应 


知识 库 ) 一 学 者 免费 利用 科学 数据 创造 新 的 学 术 成 果 ， 
该 模式 的 运行 需要 政策 财政 与 技术 保障 ,否则 难以 维 
持 。 甚 次, 处理 好 个 性 化 与 标准 化 研发 的 关系 。 鼓 励 


用 。2017 年 12 月 ,我国 印 发 了 《GB/T 35294 - 2017 信 
息 技术 科学 数据 引用 》 国 家 标准 ,通过 “通用 科学 数据 
引用 格式 ”和 “基于 0ID 的 科学 数据 引用 方式 "规范 科 


引进 先进 开源 平台 的 同时 ,要 注重 标准 化 整合 与 自主 
研发 能 力 的 提升 ,如 北京 大 学 图 书馆 对 结构 化 、 半 结构 
化 和 非 结 构 化 数据 给 予 管 理 支 持 , 采 用 Dataverse 平台 
架构 开发 了 学 科 开 放 数 据 导航 '” ,支持 科学 数据 开放 
存 取出 版 ;中 国 科学 院 兰 州 文献 情报 中 心 自主 研发 的 
全 球 科研 项 目 数据 库 ( ProjectGate ) ,提供 数据 提交 、 数 
据 审 核发 布 等 服务 ” 。 再 者 , 需 注重 对 开源 与 自主 研 
发 驱动 政策 、 出 版 平台 使 用 方法 等 进行 宣传 ,提升 科学 
数据 开放 存 取 的 实际 效能 。 
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学 数据 引用 ,引用 格式 如 下 ” :通用 科学 数据 引用 
格式 :作者 .名称 ( 版 本 ). 创建 机 构 [ 创 建 机 构 ] ,创建 
时 间 . 传播 机 构 [ 传播 机 构 ] ,传播 时 间 . 唯一 标识 符 ; 
解析 地 址 。@) 基 于 OID 的 科学 数据 引用 方式 :科学 数 
据 0ID 标识 前 级 . 出 版 厂商 代码 . 科学 数据 唯一 代码 。 
两 种 引用 标准 丝 可 厘清 数据 来 源 , 确 保科 学 数据 的 唯 
一 性 ,便于 声明 科学 数据 传播 的 路 径 。 我 国 的 出 版 平 
台 应 在 上 述 标准 引导 下 ,充分 考虑 科研 人 员 的 数据 需 
求 , 开 发 适用 多 元 数据 格式 和 复杂 端口 的 数据 标识 、 数 
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据 引用 自动 化 生成 工具 ,保障 数据 作者 的 知识 产权 , 同 
时 提升 科学 数据 引用 、 传 播 的 质量 和 效率 。 

4.2.4 数据 评审 :确保 数据 质量 可 靠 ”出 版 平台 进行 
数据 评审 主要 有 出 版 平台 的 工作 人 员 和 同行 评议 人 员 
两 个 主体 ,其 中 工作 人 员 侧重 于 数据 的 技术 质量 审核 ， 
同行 评议 人 员 则 偏向 于 关注 数据 的 科学 质量 。 技 术 质 
量 审核 的 内 容 为 数据 完整 性 和 描述 的 充分 性 ,科学 质 
量 审核 的 主要 内 容 包 括 数据 完整 性 .描述 的 详细 程度 、 
数据 有 用 性 等 " 。 科 学 数据 同行 评议 是 保证 数据 质量 
的 重要 手段 之 一 ,对 于 产生 正确 的 科学 结果 有 重要 意 
义 , 一 些 工具 和 过 程 可 能 有 助 于 快速 ,便捷 地 开展 数据 
同行 评议 中。 同行 评议 在 出 版 平台 数据 评审 中 应 用 
较为 贫 弱 ,可 借鉴 Dataverse 等 的 实践 ,引入 数据 质量 
控制 计划 ,如 采用 数据 管理 计划 (Data Management 
中 太 DMP) 与 DMPTool 来 评估 测试 数据 质量 ,为 简化 
行 评议 做 准备 ” 。 此 外 ,在 出 版 平台 数据 评审 过 程 
中 娃 要 考虑 智能 化 审查 ` 工 作 人 员 质 量 控制 和 同行 评 
议 渭 行 ,监管 与 服务 并 重 ,有 利于 解决 数据 在 语义 、. 语 
用 层面 的 评估 ,实现 多 学 科 、 多 领域 的 数据 质量 控 仙 


遇 


一 


?9 


SN 本 研究 基于 科学 数据 出 版 “采集 - 分 发 - 重用 ” 
的 宪 命 周期 ,综合 运用 文献 研究 .网络 调研 ,对 比分 析 
等 拨 完 方法 对 14 个 科学 数据 开放 存 取出 版 平台 的 科 
学 峰 据 出 版 政策 或 愿景 ,科学 数据 整合 ,标识 与 交互 ， 
科学 数据 出 版 与 分 发 ,科学 数据 引用 ,数据 生命 周期 管 
理 四 出 版 质量 控制 等 服务 内 容 进 行 梳理 ,认为 其 积累 


的 经 验 可 为 我 国 出 版 平台 服务 建设 在 科学 数据 出 版 政 
策 制 定 .关键 业务 工作 发 展 过 程 中 提供 参考 依据 ,希望 
能 助 推 我 国 科学 数据 开放 存 取出 版 工作 的 持续 健康 发 
展 。 本 文 亦 有 不 足 之 处 ,笔者 仅 选 取 欧 美 地 区 14 个 出 
平台 进行 分 析 , 样 本 数量 略微 偏 少 ,在 后 续 的 研究 
中 ,有 必要 进一步 扩大 调查 对 象 和 调查 范围 , 细 化 调查 
指标 ,提高 研究 结果 的 准确 性 和 应 用 价值 。 
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Abstract: [Purpose/significance | The value of data and the importance of open access publishing for scientific da- 
ta has become a consensus. The experience on service construction of open access publishing platform for scientific data in 
Europe and America has a great significance for reference. [ Method/process | This paper chose 14 typical open access 
publishing platforms for scientific data in Europe and America as samples, according to the data publishing life cycle of 
“collect -distribute -reuse” , and discussed the service construction on five aspects : the policy or vision of scientific data 
publishing ，scientific data consolidation, identification and interaction, scientific data publishing and distribution ，scien- 
tific data reference, data life cycle management and publishing quality control, then summarized the characteristics and 
experience of its service construction. [ Result/conclusion | The useful enlightenment on the service construction of open 
access publishing platform for scientific data in China was drawn up, including: formulating policies covering the whole 
life cycle of scientific data publishing, and attaching the importance of the key issues on scientific data publishing service 
which involves data consolidation, data identification, data reference and data review, etc. 
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